39 idiomas de forma automática: cómo gestiona nuestra traducción basada en IA la terminología especializada

Hoy en día, la traducción automática es tan buena que, en muchos casos, ya no se distingue de la humana. Los servicios de traducción ofrecen un texto fluido, idiomático y con sensibilidad para el registro lingüístico. Pero cuando se traduce un conjunto de datos DPP, de repente «rear lock fiber closure» se convierte en «cierre de fibra en la parte trasera».

El problema radica en la terminología especializada. A continuación explicamos por qué los datos de los productos no deben tratarse como si fueran novelas y qué herramientas ofrece Transpareo para que sus 39 versiones lingüísticas sigan siendo comprensibles.

El problema fundamental: una palabra, varios significados

«Seal» en el DPP de una chaqueta de montaña: sellado. «Seal» en un laboratorio: foca o junta, según el contexto. «Seal» en un protocolo de mantenimiento: en determinadas circunstancias, un sello.

Un modelo de traducción general elige en función del contexto estadístico. En un texto fluido, esto funciona: la novela proporciona contexto de sobra. En un campo de datos primary_closure: seal, apenas hay contexto. El modelo hace una suposición.

El resultado son errores sutiles. No tan dramáticos como «cierre trasero de fibra», pero con consecuencias importantes: un componente que en alemán se denomina «Dichtung» pasa a llamarse de repente «sigillo» en lugar de «guarnizione» en un DPP italiano. Un comprador ya no encuentra la pieza de recambio.

Lo que ofrece Transpareo hoy en día

Nuestro sistema de traducción traslada automáticamente cada nuevo contenido a todos los idiomas activos. Se caracteriza por cuatro aspectos:

Conservación de Markdown y variables: los marcadores de posición como <a href="/es/registrarse">Pro-Mitgliedschaft</a> y las estructuras de Markdown se extraen antes de la traducción; se traduce el texto puro y, a continuación, las estructuras se reincorporan sin modificaciones. De este modo, los enlaces, los formularios y el diseño se mantienen coherentes en todos los idiomas.
Entradas de traducción centralizadas: las traducciones no se almacenan en el propio registro, sino en una capa compartida. Varios registros con el mismo texto original comparten una misma traducción. Esto ahorra costes de traducción y unifica automáticamente los términos en todo el modelo de datos.
Nueva traducción automática en caso de modificación: si se modifica el texto original, se generan de nuevo las traducciones en todos los idiomas. Una corrección en alemán se aplica automáticamente a las otras 38 versiones lingüísticas.
Marcas por registro: se puede excluir contenido del proceso automático o fijar traducciones existentes, por ejemplo, para nombres de productos internacionales o correcciones manuales.

Dónde interviene el cliente en el procesamiento

La traducción automática ofrece, en su mayor parte, resultados correctos para textos descriptivos, de marketing e instrucciones de mantenimiento. En el caso de la terminología técnica crítica - como «seal»/«guarnizione» - , queda un número residual de errores que debe corregir el administrador del cliente.

En este caso, el administrador dispone de tres opciones:

Sobrescritura manual por idioma y término clave: cada entrada de traducción puede abrirse en el gestor de aplicaciones y adaptarse por idioma. Al marcarla como «fija», esta traducción manual se conservará en la siguiente ejecución automática.
Importación de glosarios: la terminología existente procedente de herramientas de traducción o glosarios en PDF se puede importar como archivo CSV y genera entradas de traducción directamente.
Correcciones por idioma durante el funcionamiento: un departamento de ventas italiano detecta un error, lo corrige en el Gestor de aplicaciones; la corrección surte efecto de inmediato, sin que se vean afectadas las demás traducciones.

La realidad de las lenguas de la UE

24 lenguas oficiales de la UE parece mucho. En la práctica, se dividen en tres niveles:

Mercados principales: DE, EN, FR, IT, ES, NL; aquí, todos los consumidores esperan la perfección
Mercados importantes: PT, PL, SV, DA, FI: buen nivel, aunque en ocasiones se nota que la traducción es automática
Idiomas poco frecuentes: MT, GA, ET, LV, LT: a veces hay un DPP en maltés sin que ningún consumidor final de Malta lo escanee jamás. Aun así, es obligatorio.

Esta obligación no es opcional. El ESPR exige que los contenidos de la DPP estén en el idioma del Estado miembro en el que se vende el producto. Quien abastece a 27 Estados tiene, por tanto, 24 idiomas en juego (algunos comparten idiomas).

¿Por qué una capa de localización centralizada?

La mayoría de las plataformas almacenan las traducciones como campos adicionales en el registro de datos: description_de, description_en, … 39 campos por cada atributo traducible. Suena sencillo, pero tiene tres desventajas:

Texto duplicado. Dos productos con la misma descripción del material generan 39 + 39 traducciones en lugar de una sola vez 39
Difícil de escalar. Añadir un 40.º idioma implica una migración del esquema en todos los modelos traducibles
Las correcciones son difíciles de aplicar de forma global. Si se corrige «guarnizione» en todas partes, habría que editar todos los registros uno por uno

La capa de traducción dividida resuelve esto: una entrada, muchas referencias. Una corrección, todos los registros se benefician.

Lo que aún no tenemos

Una base de datos terminológica específica para cada cliente con reconocimiento automático de sugerencias está prevista en el plan de desarrollo, pero aún no está disponible. Quien empiece hoy en día puede llegar lejos con las herramientas existentes: las sustituciones manuales, las importaciones de glosarios y la marca de «mantener» cubren los casos de uso más habituales.

Creemos que las máquinas deberían realizar la mayor parte del trabajo y que las personas solo deberían intervenir cuando sea realmente necesario. Hasta que esté disponible el reconocimiento automático de terminología, la intervención manual es transparente, y eso es más honesto que una promesa que no se cumple.